Introducción a la programación con Triton: Más allá de las operaciones por elemento: La transición hacia operaciones matriciales por bloques

En lecciones anteriores, nos centramos en operaciones por elemento (como una función ReLU básica sobre una matriz). Estas son limitadas por memoria porque la GPU pasa más tiempo moviendo datos desde la HBM hasta los registros que realizando cálculos matemáticos.

1. Por qué GEMM es fundamental

La multiplicación general de matrices (GEMM) tiene una complejidad computacional de $O(N^3)$ mientras solo requiere acceso a $O(N^2)$ de memoria. Esto nos permite ocultar la latencia de memoria detrás de un gran rendimiento aritmético, convirtiéndola en el "latido" de los modelos de lenguaje grandes.

2. Representación de memoria 2D

La memoria física RAM es de 1 dimensión. Para representar un tensor 2D, utilizamos desplazamientos. Un error común en producción es suponer que un tensor es contiguo. Si confundes los desplazamientos de filas y columnas en tus cálculos de punteros, accederás a "datos fantasma" o provocarás violaciones de memoria.

3. Generalización por bloques

Triton generaliza la lógica por elementos al pasar de punteros individuales a bloques de punteros. Al usar tiles 2D (por ejemplo, $16 \times 16$), aprovechamos reutilización de datos en SRAM de alta velocidad, manteniendo los datos "calientes" para operaciones fusionadas como la suma de sesgos o activaciones antes de escribirlos de nuevo en la memoria global.

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

QUESTION 1

Why is an elementwise ReLU on a large matrix considered 'memory-bound'?

The ReLU function requires complex transcendental math.

The ratio of arithmetic operations to memory loads is very low (1:1).

Matrices are naturally stored in CPU memory only.

Triton cannot process non-linear activations.

QUESTION 2

What is the result of 'The Stride Trap' in production kernels?

The kernel runs significantly faster but with less precision.

Memory access violations or corrupted output due to incorrect address calculation on non-contiguous tensors.

The GPU automatically corrects the indexing using L2 cache.

The tensor is forced into a 1D shape by the compiler.

QUESTION 3

How does Triton represent a 2D tile of pointers?

By using a nested Python list of integers.

By broadcasting a 1D column vector and a 1D row vector of offsets together.

By launching multiple 1D kernels sequentially.

By allocating a special 2D register file.

QUESTION 4

Which operation benefits most from the O(N³) complexity shift to hide memory latency?

Vector Addition

Matrix Multiplication (GEMM)

Sigmoid Activation

Global Average Pooling

QUESTION 5

List three kernels in your current workflow that launch multiple PyTorch ops and might benefit from fusion.

Linear -> Bias -> ReLU; LayerNorm -> Dropout; Softmax -> Masking.

Print -> Log -> Sleep.

DataLoader -> Augmentation -> Storage.

These ops cannot be fused in Triton.